生信基础

您所在的位置:网站首页 ensemble 数据库 生信基础

生信基础

2024-01-29 19:11| 来源: 网络整理| 查看: 265

当我们做的转录组或者芯片的数据是小鼠的时候,对于下游的分析,比如GSEA等分析要对生物学数据库注释,发现绝大部分数据库都是人类的基因名字,这个时候我们需要将小鼠的基因映射到人上,就是找小鼠与人之间的同源基因。有一个取巧的方法是把基因名字修改一下,人的基因名称几乎都是大写,小鼠首字母大写,其他小写。

对于大部分基因来说,直接变换大小写就可以啦。

简单粗暴的方法:

load("K:/BioInfoFiles/hsaGeneInfo.Rdata")#hsaGeneInfo head(hsaGeneInfo) library(stringr) str_to_title(hsaGeneInfo$symbol[1:10]) library(Hmisc) capitalize(tolower(hsaGeneInfo$symbol[1:10]))

其实有相应的R包(biomaRt)可以进行转换。这里从人到鼠进行转换。

hsa2mus_all head(hsa2mus_all) HGNC.symbol MGI.symbol 1 MT-CO1 mt-Co1 2 MT-CO2 mt-Co2 3 MT-ND2 mt-Nd2 4 MT-CO3 mt-Co3 5 MT-ATP8 mt-Atp8 6 MT-ND3 mt-Nd3 > length(hsaGeneInfo$symbol) [1] 62427 > nrow(hsa2mus_all) [1] 22616

总共6万多个基因,只有2万多个被映射到小鼠上。这6万多的基因包括了很多假基因。

unique(hsaGeneInfo$gene_type) hsaGeneInfo$gene_type[match(hsa2mus_all$HGNC.symbol,hsaGeneInfo$symbol)] %>% unique()

只转换一下编码蛋白的基因。

hsa_prot_coding nrow(hsa2mus_protein) [1] 21167

说明一部分人的编码蛋白基因,一个映射到多个小鼠基因上。

hsa2mus_protein[duplicated(hsa2mus_protein$HGNC.symbol),] %>% head()

可以根据前面的得到的对应关系,进行下游的分析。比如GSEA分析。在MSigDB(Molecular Signatures Database)数据库的全部基因集的下载。

http://bioinf.wehi.edu.au/software/MSigDB/human_H_v5p2.rdata

http://bioinf.wehi.edu.au/software/MSigDB/mouse_H_v5p2.rdata

加载这些数据集。将ID进行转换。

library(clusterProfiler) library(org.Hs.eg.db) library(org.Mm.eg.db) load("F:/BioInfoStudy/data/genesets/mouse_H_v5p2.rdata") load("F:/BioInfoStudy/data/genesets/human_H_v5p2.rdata") MSigDB_hsa_symb


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3